{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# pandas期末项目\n",
    "建议千万不要手动运行，因为可能由于你的电脑缺少某些模块，可能会导致代码运行报错而查看不了结果"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 58,
   "metadata": {},
   "outputs": [],
   "source": [
    "#导入模块\n",
    "import pandas as pd"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 清理数据"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 59,
   "metadata": {},
   "outputs": [],
   "source": [
    "fn = { \"input\" : \"data_sets/不会画出版社.xlsx\",\n",
    "       \"output\" : \"data_sets/不会画出版社_processed.xlsx\"\n",
    "      }"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 读入数据\n",
    "+ 数据来源是用selenium自动化爬取微信公众号平台“不会画出版社”发布的文章标题、发布日期、url和content"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 60,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>title</th>\n",
       "      <th>create_time</th>\n",
       "      <th>link</th>\n",
       "      <th>content</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>“冲啊！！！！！”</td>\n",
       "      <td>2020-07-06</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>很多事是这阵子才明白的。\\n\\n \\n\\n也有很多事是这阵子突然不明白的。\\n\\n\\n\\n这...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>“我也想被你秒回。”</td>\n",
       "      <td>2020-07-03</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>记录下那段和妈妈的对话到现在，其实已经过去两年。两年前很多人会跟我说，知道归知道，懊恼归懊恼...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>“一个秘密。”</td>\n",
       "      <td>2020-07-01</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>人是擅长自欺欺人的，尤其是在喜欢这件事情上。 \\n\\n\\n\\n我们总是能找到角度，给坏结局一...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>“你以前不是这样的。”</td>\n",
       "      <td>2020-06-29</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>值得一提的是，并不是只有“恶化”的关系才会让人感觉到变了。\\n\\n \\n\\n当双方关系升温时...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>“我还是会偷看你的朋友圈。”</td>\n",
       "      <td>2020-06-27</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>仔细想想，过去和某个人一分开，\\n\\n后来真的就没那么容易再见面。\\n\\n\\n\\n但有意思的...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "            title create_time  \\\n",
       "0       “冲啊！！！！！”  2020-07-06   \n",
       "1      “我也想被你秒回。”  2020-07-03   \n",
       "2         “一个秘密。”  2020-07-01   \n",
       "3     “你以前不是这样的。”  2020-06-29   \n",
       "4  “我还是会偷看你的朋友圈。”  2020-06-27   \n",
       "\n",
       "                                                link  \\\n",
       "0  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "1  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "2  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "3  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "4  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "\n",
       "                                             content  \n",
       "0  很多事是这阵子才明白的。\\n\\n \\n\\n也有很多事是这阵子突然不明白的。\\n\\n\\n\\n这...  \n",
       "1  记录下那段和妈妈的对话到现在，其实已经过去两年。两年前很多人会跟我说，知道归知道，懊恼归懊恼...  \n",
       "2  人是擅长自欺欺人的，尤其是在喜欢这件事情上。 \\n\\n\\n\\n我们总是能找到角度，给坏结局一...  \n",
       "3  值得一提的是，并不是只有“恶化”的关系才会让人感觉到变了。\\n\\n \\n\\n当双方关系升温时...  \n",
       "4  仔细想想，过去和某个人一分开，\\n\\n后来真的就没那么容易再见面。\\n\\n\\n\\n但有意思的...  "
      ]
     },
     "execution_count": 60,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "#由于技术有限，先暂时用前50篇文章内容做实践\n",
    "df = pd.read_excel(fn[\"input\"], sheet_name= 0, index_col=0).fillna(\"\")\n",
    "df.head()"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 清理数据\n"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 61,
   "metadata": {
    "scrolled": true
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>title</th>\n",
       "      <th>create_time</th>\n",
       "      <th>link</th>\n",
       "      <th>content_raw</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>“冲啊！！！！！”</td>\n",
       "      <td>2020-07-06</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>很多事是这阵子才明白的。\\n\\n \\n\\n也有很多事是这阵子突然不明白的。\\n\\n\\n\\n这...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>“我也想被你秒回。”</td>\n",
       "      <td>2020-07-03</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>记录下那段和妈妈的对话到现在，其实已经过去两年。两年前很多人会跟我说，知道归知道，懊恼归懊恼...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>“一个秘密。”</td>\n",
       "      <td>2020-07-01</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>人是擅长自欺欺人的，尤其是在喜欢这件事情上。 \\n\\n\\n\\n我们总是能找到角度，给坏结局一...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>“你以前不是这样的。”</td>\n",
       "      <td>2020-06-29</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>值得一提的是，并不是只有“恶化”的关系才会让人感觉到变了。\\n\\n \\n\\n当双方关系升温时...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>“我还是会偷看你的朋友圈。”</td>\n",
       "      <td>2020-06-27</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>仔细想想，过去和某个人一分开，\\n\\n后来真的就没那么容易再见面。\\n\\n\\n\\n但有意思的...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>​最后，我们​没能在一起。</td>\n",
       "      <td>2020-01-04</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>有天和女朋友闹矛盾，难过的我想象着分手后的模样。\\n\\n我心想，她应该会说，我其实不爱她。\\...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>有些事，我只想和你一起做。</td>\n",
       "      <td>2020-01-04</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>这阵子发生了太多复杂的事情。\\n\\n \\n\\n而最令人心慌的可能是，今天听到一个好消息，明天...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>“19年也终于到头了。”</td>\n",
       "      <td>2019-12-30</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>每到年底，常看到一些年度报告的刷屏。\\n\\n\\n\\n听歌的报告，消费的报告，出行的报告，等等...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>“我以前没喜欢过别人”</td>\n",
       "      <td>2019-12-24</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>原本的剧本里，男孩真的是个能穿越时空的杀手。\\n\\n\\n\\n然后他因为喜欢女孩，所以放弃了任...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>不准管我，哼！</td>\n",
       "      <td>2019-12-24</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>“真的较真”\\n\\n \\n\\n是宠物品牌LORDE里兜，对爱和陪伴的诠释\\n\\n \\n\\n了...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>“再等一等吧。”</td>\n",
       "      <td>2019-12-21</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>陈奕迅的《葡萄成熟时》很奇怪，明明整首歌是在聊“收获”、“努力”和“等待”，用的比喻也只是“...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>“你现在不懂我也没关系”</td>\n",
       "      <td>2019-12-17</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>写这篇文章时，听朋友分享过一个故事。\\n\\n一个女生，把男朋友平日里做错的、她在意的，都记在...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>跟我走吧。</td>\n",
       "      <td>2019-12-17</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>我们一直尝试着让故事稍微有意思点。这次的形式，其实我们也知道会有一部分的人看不到，可能会导致...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>喜欢，但不合适。</td>\n",
       "      <td>2020-06-13</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>听过很多话，总觉得喜欢，应该是一股比较强大的力量。\\n\\n \\n\\n异地、时间、世俗，再多的...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>累了的话，可以靠在我身上。</td>\n",
       "      <td>2020-06-11</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>记得有一次陪男朋友去演讲，我们一起坐动车前往别的城市。\\n\\n \\n\\n当时是下午两点多，阳...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>我开始试着给糟糕的生活，留点「快乐基金」。</td>\n",
       "      <td>2020-06-09</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>后来我去问了身边一些朋友，到底存多少钱才算是有安全感？\\n\\n \\n\\n还在读书的朋友说：存...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>“如果不是4万/平的房价，我早就求婚了。”</td>\n",
       "      <td>2020-06-06</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>有个朋友谈了好几年恋爱，女生一直等男生一句结婚，但男生因为经济情况很差，迟迟没有开口。\\n\\...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>17</th>\n",
       "      <td>今天，想和你们坐着聊聊天。</td>\n",
       "      <td>2020-06-03</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>他没有说我，没有还手，只是下意识地抓住我，想我安全地通过扶梯——这是我后来回看视频时才发现的...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18</th>\n",
       "      <td>“你当我还是小孩子啊？”“是啊。”</td>\n",
       "      <td>2020-05-31</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>前些天看一好朋友发了条朋友圈：\\n\\n“好想做个小孩啊。”\\n\\n \\n\\n想评论些什么时，...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19</th>\n",
       "      <td>“不想你太累。”</td>\n",
       "      <td>2020-05-28</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>人总是想给重要的人更好的生活。\\n\\n \\n\\n为此付出了不少的努力，也做出了不少的牺牲。\\...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20</th>\n",
       "      <td>“你不说我都忘了。”“真好。”</td>\n",
       "      <td>2020-05-23</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>以前我不太喜欢拍照，加上记性差，很多旧事常常被我忘记。\\n\\n \\n\\n那时候会有些沮丧，觉...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>21</th>\n",
       "      <td>520那天，我买了项服务。</td>\n",
       "      <td>2020-05-19</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>最后一幕里，男主明明已经表达了自己对这个活动的不满，但沟通无果放弃后，商家依然能笑脸盈盈的，...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>22</th>\n",
       "      <td>我害怕的不是结婚这件事。</td>\n",
       "      <td>2020-05-16</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>昨晚刚看了最新一期的《非正式会谈》，\\n\\n来自印度的天乐，分享了自己童年经历。\\n\\n \\...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>23</th>\n",
       "      <td>“还是想做个温柔的人。”</td>\n",
       "      <td>2020-05-13</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>想聊的其实不是校园暴力也不是网络暴力。\\n\\n \\n\\n而是当我们努力以平和的心态，去保护一...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>24</th>\n",
       "      <td>“努力！奋斗！”</td>\n",
       "      <td>2020-05-10</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>刚毕业时会发现，生活其实有蛮多种选择的。\\n\\n \\n\\n但往往这些选择里，不包括你自己最想...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>25</th>\n",
       "      <td>“等你。”</td>\n",
       "      <td>2020-05-07</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>已经想不起来，我妈是从什么时候开始，不再发那么长的语音。\\n\\n \\n\\n后来才听她说。\\n...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>26</th>\n",
       "      <td>“离开时要做的三件事。”</td>\n",
       "      <td>2020-05-02</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>见过很多分开时，各式各样的遗憾。\\n\\n \\n\\n有些人满怀怨念，等到很多年后才后悔当时撕破...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>27</th>\n",
       "      <td>“很多事，突然就变了。”</td>\n",
       "      <td>2020-04-28</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>朋友告诉我，办公室门口的树叫黄花铃木。\\n\\n \\n\\n和我不一样的是，他对花凋谢这件事习以...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28</th>\n",
       "      <td>“我可能不会为你留下。”</td>\n",
       "      <td>2020-04-25</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>其实mv的故事，不完全是悲剧。\\n\\n \\n\\n在最后，车到站时，难过的男主看向了车门处，愣...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>29</th>\n",
       "      <td>“拜拜。”</td>\n",
       "      <td>2020-04-21</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>看过一个段子：\\n\\n \\n\\n“你还想他吗？”\\n\\n“不想，我放下了。”\\n\\n“可我还...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>30</th>\n",
       "      <td>“又不是第一次失恋了。”</td>\n",
       "      <td>2020-04-18</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>这是一首带有雨声的歌，3月份初，我每晚靠着它入眠。\\n\\n \\n\\n朋友听到1129这个数字...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>31</th>\n",
       "      <td>“别气啦。”</td>\n",
       "      <td>2020-04-14</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>第一次看到这个故事时，我说两个老人的故事不错。\\n\\n \\n\\n编剧点点头，说：“因为是真事...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>32</th>\n",
       "      <td>“累了。”</td>\n",
       "      <td>2020-04-11</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>以前常常会焦虑。\\n\\n\\n\\n这种焦虑源自于，自己想要的，和现实有巨大的落差。\\n\\n\\n...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>33</th>\n",
       "      <td>“我在。”</td>\n",
       "      <td>2020-04-07</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>成年人的难处总是千奇百怪的。\\n\\n \\n\\n于是理解的人少，于是不爱说，于是陷进了孤独的圈...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>34</th>\n",
       "      <td>你不喜欢我也OK。</td>\n",
       "      <td>2020-04-05</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>这次的结尾我写了很久。\\n\\n\\n\\n我前面都写得很顺，写到”生活就像被锁在房子里“时，也还...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>35</th>\n",
       "      <td>“我很开朗，装的。”</td>\n",
       "      <td>2020-03-31</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>问过一些朋友，对内向的人有什么形容词。\\n\\n\\n\\n人们给出的回答有很多，比如敏感，比如安...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>36</th>\n",
       "      <td>既然要走，就别回头了。</td>\n",
       "      <td>2020-03-28</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>其实在我心里，这个故事还有最后的一小段。\\n\\n\\n\\n17岁那年最后的结局是，男生在机场里...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>37</th>\n",
       "      <td>待在你身边，就很安心。</td>\n",
       "      <td>2020-03-28</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>谈过恋爱之后，我一直有个感受，就是不想当女朋友了，想当男朋友。\\n\\n \\n\\n因为男朋友，...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>38</th>\n",
       "      <td>夏天要来了，你还离开吗？</td>\n",
       "      <td>2020-03-24</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>那个偷偷写信的，仰望着于默的陈欢，可能也想过她这样的小透明怎么会被喜欢呢。\\n\\n \\n\\n...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>39</th>\n",
       "      <td>“想和你一起老去。”</td>\n",
       "      <td>2020-03-21</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>感情这件事，似乎是挺难想明白的。\\n\\n \\n\\n所以常常在还没开始的时候，就会害怕以后的事...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>40</th>\n",
       "      <td>睡不着的时候，我想见到你。</td>\n",
       "      <td>2020-03-21</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>故事里有两段话。\\n\\n \\n\\n“因为我喜欢你，所以只要你多说几次，我还是会同意，那就直接...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>41</th>\n",
       "      <td>“其实我过得很开心。”</td>\n",
       "      <td>2020-03-17</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>常常有各种原因，阻碍我们过上理想的生活。\\n\\n \\n\\n可能是父母的不支持，外人的不理解，...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>42</th>\n",
       "      <td>很喜欢的人，也可以真心说再见。</td>\n",
       "      <td>2020-03-13</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>第一次听《不能说的秘密》，没有特别喜欢。\\n\\n\\n\\n第二次听时是一两年后，意外地被触动到...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>43</th>\n",
       "      <td>“你忙完，要记得找我。”</td>\n",
       "      <td>2020-03-09</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>后来朋友问我：“你怪过他吗？”\\n\\n \\n\\n我想了想，摇了摇头。\\n\\n \\n\\n前途和...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>44</th>\n",
       "      <td>“我才不会喜欢你。”</td>\n",
       "      <td>2020-03-06</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>我突然想到另外一个事情。\\n\\n\\n\\n培养一个习惯要多久呢？有些人会说21天，对吧？但其实...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>45</th>\n",
       "      <td>“今年的你，还好吗”</td>\n",
       "      <td>2020-03-02</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>下面这个长长的故事，来自我们团队另一个号《拥抱要深》（点击可直接跳转）\\n\\n\\n\\n发布这...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>46</th>\n",
       "      <td>“我早就知道会失去你。”</td>\n",
       "      <td>2020-02-28</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>见过很多朋友，即便努力挣扎过很多次，最后也只落得一个让人心疼的结局。\\n\\n\\n\\n我问他们...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>47</th>\n",
       "      <td>“想喜欢，但怕了。”</td>\n",
       "      <td>2020-02-24</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>我听过很多等式。\\n\\n\\n\\n太喜欢=容易受伤=容易被追到=失去主动权=更卑微\\n\\n\\n...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>48</th>\n",
       "      <td>其实，我是真的在乎你</td>\n",
       "      <td>2020-02-21</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>亲密关系里，多数的不愉快都和“关心”有关。\\n\\n \\n\\n譬如抱怨对方的不在乎，譬如抱怨对...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>49</th>\n",
       "      <td>“喜欢你的日子，都结束了。”</td>\n",
       "      <td>2020-02-17</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>我有时会想一个问题——在路上偶遇喜欢过的人时，会有些不自然，这是正常的吗。\\n\\n\\n\\n之...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>50</th>\n",
       "      <td>五年级的表弟教我谈恋爱。</td>\n",
       "      <td>2020-02-14</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>\\n在上一篇推送《“我想…” “好”》里，有读者留言说：“感情这件事，哪里能那么清晰呢。”\\...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                    title create_time  \\\n",
       "0               “冲啊！！！！！”  2020-07-06   \n",
       "1              “我也想被你秒回。”  2020-07-03   \n",
       "2                 “一个秘密。”  2020-07-01   \n",
       "3             “你以前不是这样的。”  2020-06-29   \n",
       "4          “我还是会偷看你的朋友圈。”  2020-06-27   \n",
       "5           ​最后，我们​没能在一起。  2020-01-04   \n",
       "6           有些事，我只想和你一起做。  2020-01-04   \n",
       "7            “19年也终于到头了。”  2019-12-30   \n",
       "8             “我以前没喜欢过别人”  2019-12-24   \n",
       "9                 不准管我，哼！  2019-12-24   \n",
       "10               “再等一等吧。”  2019-12-21   \n",
       "11           “你现在不懂我也没关系”  2019-12-17   \n",
       "12                  跟我走吧。  2019-12-17   \n",
       "13               喜欢，但不合适。  2020-06-13   \n",
       "14          累了的话，可以靠在我身上。  2020-06-11   \n",
       "15  我开始试着给糟糕的生活，留点「快乐基金」。  2020-06-09   \n",
       "16  “如果不是4万/平的房价，我早就求婚了。”  2020-06-06   \n",
       "17          今天，想和你们坐着聊聊天。  2020-06-03   \n",
       "18      “你当我还是小孩子啊？”“是啊。”  2020-05-31   \n",
       "19               “不想你太累。”  2020-05-28   \n",
       "20        “你不说我都忘了。”“真好。”  2020-05-23   \n",
       "21          520那天，我买了项服务。  2020-05-19   \n",
       "22           我害怕的不是结婚这件事。  2020-05-16   \n",
       "23           “还是想做个温柔的人。”  2020-05-13   \n",
       "24               “努力！奋斗！”  2020-05-10   \n",
       "25                  “等你。”  2020-05-07   \n",
       "26           “离开时要做的三件事。”  2020-05-02   \n",
       "27           “很多事，突然就变了。”  2020-04-28   \n",
       "28           “我可能不会为你留下。”  2020-04-25   \n",
       "29                  “拜拜。”  2020-04-21   \n",
       "30           “又不是第一次失恋了。”  2020-04-18   \n",
       "31                 “别气啦。”  2020-04-14   \n",
       "32                  “累了。”  2020-04-11   \n",
       "33                  “我在。”  2020-04-07   \n",
       "34              你不喜欢我也OK。  2020-04-05   \n",
       "35             “我很开朗，装的。”  2020-03-31   \n",
       "36            既然要走，就别回头了。  2020-03-28   \n",
       "37            待在你身边，就很安心。  2020-03-28   \n",
       "38           夏天要来了，你还离开吗？  2020-03-24   \n",
       "39             “想和你一起老去。”  2020-03-21   \n",
       "40          睡不着的时候，我想见到你。  2020-03-21   \n",
       "41            “其实我过得很开心。”  2020-03-17   \n",
       "42        很喜欢的人，也可以真心说再见。  2020-03-13   \n",
       "43           “你忙完，要记得找我。”  2020-03-09   \n",
       "44             “我才不会喜欢你。”  2020-03-06   \n",
       "45             “今年的你，还好吗”  2020-03-02   \n",
       "46           “我早就知道会失去你。”  2020-02-28   \n",
       "47             “想喜欢，但怕了。”  2020-02-24   \n",
       "48             其实，我是真的在乎你  2020-02-21   \n",
       "49         “喜欢你的日子，都结束了。”  2020-02-17   \n",
       "50           五年级的表弟教我谈恋爱。  2020-02-14   \n",
       "\n",
       "                                                 link  \\\n",
       "0   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "1   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "2   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "3   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "4   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "5   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "6   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "7   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "8   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "9   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "10  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "11  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "12  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "13  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "14  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "15  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "16  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "17  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "18  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "19  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "20  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "21  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "22  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "23  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "24  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "25  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "26  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "27  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "28  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "29  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "30  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "31  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "32  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "33  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "34  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "35  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "36  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "37  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "38  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "39  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "40  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "41  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "42  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "43  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "44  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "45  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "46  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "47  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "48  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "49  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "50  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "\n",
       "                                          content_raw  \n",
       "0   很多事是这阵子才明白的。\\n\\n \\n\\n也有很多事是这阵子突然不明白的。\\n\\n\\n\\n这...  \n",
       "1   记录下那段和妈妈的对话到现在，其实已经过去两年。两年前很多人会跟我说，知道归知道，懊恼归懊恼...  \n",
       "2   人是擅长自欺欺人的，尤其是在喜欢这件事情上。 \\n\\n\\n\\n我们总是能找到角度，给坏结局一...  \n",
       "3   值得一提的是，并不是只有“恶化”的关系才会让人感觉到变了。\\n\\n \\n\\n当双方关系升温时...  \n",
       "4   仔细想想，过去和某个人一分开，\\n\\n后来真的就没那么容易再见面。\\n\\n\\n\\n但有意思的...  \n",
       "5   有天和女朋友闹矛盾，难过的我想象着分手后的模样。\\n\\n我心想，她应该会说，我其实不爱她。\\...  \n",
       "6   这阵子发生了太多复杂的事情。\\n\\n \\n\\n而最令人心慌的可能是，今天听到一个好消息，明天...  \n",
       "7   每到年底，常看到一些年度报告的刷屏。\\n\\n\\n\\n听歌的报告，消费的报告，出行的报告，等等...  \n",
       "8   原本的剧本里，男孩真的是个能穿越时空的杀手。\\n\\n\\n\\n然后他因为喜欢女孩，所以放弃了任...  \n",
       "9   “真的较真”\\n\\n \\n\\n是宠物品牌LORDE里兜，对爱和陪伴的诠释\\n\\n \\n\\n了...  \n",
       "10  陈奕迅的《葡萄成熟时》很奇怪，明明整首歌是在聊“收获”、“努力”和“等待”，用的比喻也只是“...  \n",
       "11  写这篇文章时，听朋友分享过一个故事。\\n\\n一个女生，把男朋友平日里做错的、她在意的，都记在...  \n",
       "12  我们一直尝试着让故事稍微有意思点。这次的形式，其实我们也知道会有一部分的人看不到，可能会导致...  \n",
       "13  听过很多话，总觉得喜欢，应该是一股比较强大的力量。\\n\\n \\n\\n异地、时间、世俗，再多的...  \n",
       "14  记得有一次陪男朋友去演讲，我们一起坐动车前往别的城市。\\n\\n \\n\\n当时是下午两点多，阳...  \n",
       "15  后来我去问了身边一些朋友，到底存多少钱才算是有安全感？\\n\\n \\n\\n还在读书的朋友说：存...  \n",
       "16  有个朋友谈了好几年恋爱，女生一直等男生一句结婚，但男生因为经济情况很差，迟迟没有开口。\\n\\...  \n",
       "17  他没有说我，没有还手，只是下意识地抓住我，想我安全地通过扶梯——这是我后来回看视频时才发现的...  \n",
       "18  前些天看一好朋友发了条朋友圈：\\n\\n“好想做个小孩啊。”\\n\\n \\n\\n想评论些什么时，...  \n",
       "19  人总是想给重要的人更好的生活。\\n\\n \\n\\n为此付出了不少的努力，也做出了不少的牺牲。\\...  \n",
       "20  以前我不太喜欢拍照，加上记性差，很多旧事常常被我忘记。\\n\\n \\n\\n那时候会有些沮丧，觉...  \n",
       "21  最后一幕里，男主明明已经表达了自己对这个活动的不满，但沟通无果放弃后，商家依然能笑脸盈盈的，...  \n",
       "22  昨晚刚看了最新一期的《非正式会谈》，\\n\\n来自印度的天乐，分享了自己童年经历。\\n\\n \\...  \n",
       "23  想聊的其实不是校园暴力也不是网络暴力。\\n\\n \\n\\n而是当我们努力以平和的心态，去保护一...  \n",
       "24  刚毕业时会发现，生活其实有蛮多种选择的。\\n\\n \\n\\n但往往这些选择里，不包括你自己最想...  \n",
       "25  已经想不起来，我妈是从什么时候开始，不再发那么长的语音。\\n\\n \\n\\n后来才听她说。\\n...  \n",
       "26  见过很多分开时，各式各样的遗憾。\\n\\n \\n\\n有些人满怀怨念，等到很多年后才后悔当时撕破...  \n",
       "27  朋友告诉我，办公室门口的树叫黄花铃木。\\n\\n \\n\\n和我不一样的是，他对花凋谢这件事习以...  \n",
       "28  其实mv的故事，不完全是悲剧。\\n\\n \\n\\n在最后，车到站时，难过的男主看向了车门处，愣...  \n",
       "29  看过一个段子：\\n\\n \\n\\n“你还想他吗？”\\n\\n“不想，我放下了。”\\n\\n“可我还...  \n",
       "30  这是一首带有雨声的歌，3月份初，我每晚靠着它入眠。\\n\\n \\n\\n朋友听到1129这个数字...  \n",
       "31  第一次看到这个故事时，我说两个老人的故事不错。\\n\\n \\n\\n编剧点点头，说：“因为是真事...  \n",
       "32  以前常常会焦虑。\\n\\n\\n\\n这种焦虑源自于，自己想要的，和现实有巨大的落差。\\n\\n\\n...  \n",
       "33  成年人的难处总是千奇百怪的。\\n\\n \\n\\n于是理解的人少，于是不爱说，于是陷进了孤独的圈...  \n",
       "34  这次的结尾我写了很久。\\n\\n\\n\\n我前面都写得很顺，写到”生活就像被锁在房子里“时，也还...  \n",
       "35  问过一些朋友，对内向的人有什么形容词。\\n\\n\\n\\n人们给出的回答有很多，比如敏感，比如安...  \n",
       "36  其实在我心里，这个故事还有最后的一小段。\\n\\n\\n\\n17岁那年最后的结局是，男生在机场里...  \n",
       "37  谈过恋爱之后，我一直有个感受，就是不想当女朋友了，想当男朋友。\\n\\n \\n\\n因为男朋友，...  \n",
       "38  那个偷偷写信的，仰望着于默的陈欢，可能也想过她这样的小透明怎么会被喜欢呢。\\n\\n \\n\\n...  \n",
       "39  感情这件事，似乎是挺难想明白的。\\n\\n \\n\\n所以常常在还没开始的时候，就会害怕以后的事...  \n",
       "40  故事里有两段话。\\n\\n \\n\\n“因为我喜欢你，所以只要你多说几次，我还是会同意，那就直接...  \n",
       "41  常常有各种原因，阻碍我们过上理想的生活。\\n\\n \\n\\n可能是父母的不支持，外人的不理解，...  \n",
       "42  第一次听《不能说的秘密》，没有特别喜欢。\\n\\n\\n\\n第二次听时是一两年后，意外地被触动到...  \n",
       "43  后来朋友问我：“你怪过他吗？”\\n\\n \\n\\n我想了想，摇了摇头。\\n\\n \\n\\n前途和...  \n",
       "44  我突然想到另外一个事情。\\n\\n\\n\\n培养一个习惯要多久呢？有些人会说21天，对吧？但其实...  \n",
       "45  下面这个长长的故事，来自我们团队另一个号《拥抱要深》（点击可直接跳转）\\n\\n\\n\\n发布这...  \n",
       "46  见过很多朋友，即便努力挣扎过很多次，最后也只落得一个让人心疼的结局。\\n\\n\\n\\n我问他们...  \n",
       "47  我听过很多等式。\\n\\n\\n\\n太喜欢=容易受伤=容易被追到=失去主动权=更卑微\\n\\n\\n...  \n",
       "48  亲密关系里，多数的不愉快都和“关心”有关。\\n\\n \\n\\n譬如抱怨对方的不在乎，譬如抱怨对...  \n",
       "49  我有时会想一个问题——在路上偶遇喜欢过的人时，会有些不自然，这是正常的吗。\\n\\n\\n\\n之...  \n",
       "50  \\n在上一篇推送《“我想…” “好”》里，有读者留言说：“感情这件事，哪里能那么清晰呢。”\\...  "
      ]
     },
     "execution_count": 61,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "#备份\n",
    "df = df.rename (columns = {\"content\":\"content_raw\"})\n",
    "df_original = df.copy()\n",
    "df_original"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 使用jieba做断词\n",
    "+ [https://github.com/fxsjy/jieba](https://github.com/fxsjy/jieba)\n",
    "+ pip install jieba\n",
    "\n",
    "\n",
    "```python\n",
    "import jieba\n",
    "\n",
    "seg_list = list(jieba.cut(\"我来到北京清华大学\", cut_all=True))\n",
    "print(seg_list)  # 全模式\n",
    "\n",
    "seg_list = list(jieba.cut(\"我来到北京清华大学\", cut_all=False))\n",
    "print(seg_list)  # 精确模式\n",
    "```\n",
    "\n",
    "```\n",
    "['我', '来到', '北京', '清华', '清华大学', '华大', '大学']\n",
    "['我', '来到', '北京', '清华大学']\n",
    "```"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 90,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "Building prefix dict from C:\\Users\\Mask Bai\\3D Objects\\LDA_0629\\data_sets\\JieBa_user_dict.txt ...\n",
      "Loading model from cache C:\\Users\\MASKBA~1\\AppData\\Local\\Temp\\jieba.uf4de01e3ee47548371ab75247cdf31d3.cache\n",
      "Loading model cost 0.017 seconds.\n",
      "Prefix dict has been built successfully.\n"
     ]
    }
   ],
   "source": [
    "import jieba\n",
    "import re\n",
    "\n",
    "\"\"\"JieBa类\"\"\"\n",
    "class JieBa:   \n",
    "    #定义基本属性\n",
    "    user_dict_path = False\n",
    "    stopwords_path = False\n",
    "    stopwords = []\n",
    "    #定义私有属性,私有属性在类外部无法直接进行访问\n",
    "    __weight = 0\n",
    "    #定义构造方法\n",
    "    def __init__(self, udp=False, stp=False):\n",
    "        self.user_dict_path = udp\n",
    "        self.stopwords_path = stp\n",
    "        \n",
    "        # 用户自定字典启动\n",
    "        if udp!=False:\n",
    "            jieba.load_userdict(udp)\n",
    "            jieba.set_dictionary(udp)  #加载自定义词典  \n",
    "            jieba.initialize()# 旦有必要才开始加载词典构建前缀字典。\n",
    "            \n",
    "        # 停止词字典启动\n",
    "        if stp!=False:\n",
    "            zh_stopwords = pd.read_csv(stp, encoding=\"utf8\", header=None)  # 读入中文停止词\n",
    "            self.stopwords = list(zh_stopwords[0].values)\n",
    "\n",
    "            # 读入中文及英文标点\n",
    "            import sys\n",
    "            from unicodedata import category as cat\n",
    "            tbl_p = [chr(i) for i in range(sys.maxunicode) if cat(chr(i)).startswith('P')]\n",
    "            # print(tbl_p)\n",
    "            \n",
    "            self.stopwords.extend(tbl_p)\n",
    "            \n",
    "    def preprocess (self, _text_):  \n",
    "        _text_ = re.sub( r'\\s+', \" \", _text_) ## preprocessing, removing whitespaces(multiple) to 1 \n",
    "        return (_text_)\n",
    "    \n",
    "    def postprocess (self, _list_, stopwords):\n",
    "        return ([x.strip() for x in _list_ if x not in stopwords+[' ']])  # 把stopwords 及 \" \"过滤掉\n",
    "    \n",
    "    def cut(self, _text_):\n",
    "        #print (_text_)\n",
    "        return (self.postprocess(list(jieba.cut(self.preprocess(_text_))), self.stopwords))\n",
    "\n",
    "    def cut_text(self, _text_, sep=\" \"):\n",
    "        return (sep.join(self.cut(_text_)))\n",
    "    \n",
    "\n",
    "\"\"\"JieBa类实例\"\"\"\n",
    "JB = JieBa()                                                                  # 均无\n",
    "#JB = JieBa(udp=\"data_sets/JieBa_user_dict.txt\")                               # 仅使用用户自定字典\n",
    "#JB = JieBa(stp=\"data_sets/JieBa_stopwords.txt\")                               # 仅使用停止词字典\n",
    "JB = JieBa(udp=\"data_sets/JieBa_user_dict.txt\", stp=\"data_sets/JieBa_stopwords.txt\")"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 85,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "['$', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '?', '-', '_', '“', '”', '、', '。', '《', '》', '一', '一些', '一何', '一來', '一切', '一则', '一則', '一方面', '一旦', '一来', '一样', '一樣', '一般', '一轉眼', '一转眼', '万一', '上', '上下', '下', '不', '不仅', '不但', '不僅', '不光', '不单', '不只', '不問', '不單', '不外乎', '不如', '不妨', '不尽', '不尽然', '不得', '不怕', '不惟', '不成', '不拘', '不料', '不是', '不比', '不然', '不特', '不独', '不獨', '不盡', '不盡然', '不管', '不至于', '不至於', '不若', '不論', '不论', '不过', '不過', '不问', '与', '与其', '与其说', '与否', '与此同时', '且', '且不說', '且不说', '且說', '且说', '两者', '並', '並且', '並非', '个', '个别', '临', '为', '为了', '为什么', '为何', '为止', '为此', '为着', '乃', '乃至', '乃至于', '乃至於', '么', '之', '之一', '之所以', '之类', '之類', '乌乎', '乎', '乘', '也', '也好', '也罢', '也罷', '了', '二來', '二来', '于', '于是', '于是乎', '云云', '云尔', '云爾', '些', '亦', '人', '人们', '人們', '人家', '什么', '什么样', '什麼', '什麼樣', '今', '介于', '介於', '仍', '仍旧', '仍舊', '从', '从此', '从而', '他', '他人', '他们', '他們', '以', '以上', '以为', '以來', '以便', '以免', '以及', '以故', '以期', '以来', '以爲', '以至', '以至于', '以至於', '以致', '们', '任', '任何', '任凭', '任憑', '似的', '但', '但凡', '但是', '何', '何以', '何况', '何处', '何时', '何時', '何況', '何處', '余外', '作为', '作爲', '你', '你们', '你們', '使', '使得', '來', '來着', '來自', '來說', '例如', '依', '依据', '依據', '依照', '便于', '便於', '俺', '俺们', '俺們', '個', '個別', '們', '倘', '倘使', '倘或', '倘然', '倘若', '借', '假使', '假如', '假若', '傥然', '像', '儘管', '儘管如此', '儻然', '儿', '先不先', '光是', '兒', '內', '全体', '全部', '全體', '兩者', '兮', '关于', '其', '其一', '其中', '其二', '其他', '其余', '其它', '其次', '其餘', '具体地说', '具体说来', '具體地說', '具體說來', '兼之', '内', '再', '再其次', '再则', '再則', '再有', '再者', '再者說', '再者说', '再說', '再说', '冒', '冲', '况且', '几', '几时', '凡', '凡是', '凭', '凭借', '出于', '出來', '出於', '出来', '分別', '分别', '则', '则甚', '別', '別人', '別是', '別的', '別管', '別處', '別說', '别', '别人', '别处', '别是', '别的', '别管', '别说', '到', '則', '則甚', '前后', '前後', '前此', '前者', '加之', '加以', '即', '即令', '即使', '即便', '即如', '即或', '即若', '却', '卻', '去', '又', '又及', '及', '及其', '及至', '反之', '反而', '反过来', '反过来说', '反過來', '反過來說', '受到', '另', '另一方面', '另外', '另悉', '只', '只当', '只怕', '只是', '只有', '只消', '只當', '只要', '只限', '叫', '叮咚', '可', '可以', '可是', '可見', '可见', '各', '各个', '各位', '各個', '各种', '各種', '各自', '同', '同时', '同時', '后', '后者', '向', '向使', '向着', '吓', '吗', '否则', '否則', '吧', '吧哒', '吧噠', '吱', '呀', '呃', '呕', '呗', '呜', '呜呼', '呢', '呵', '呵呵', '呸', '呼哧', '咋', '和', '咚', '咦', '咧', '咱', '咱们', '咱們', '咳', '哇', '哈', '哈哈', '哉', '哎', '哎呀', '哎哟', '哎喲', '哗', '哟', '哦', '哩', '哪', '哪个', '哪些', '哪個', '哪儿', '哪兒', '哪天', '哪年', '哪怕', '哪样', '哪樣', '哪裏', '哪边', '哪邊', '哪里', '哼', '哼唷', '唄', '唉', '唯有', '啊', '啐', '啥', '啦', '啪达', '啪達', '啷噹', '啷当', '喂', '喏', '喔唷', '喲', '喽', '嗎', '嗚', '嗚呼', '嗡', '嗡嗡', '嗬', '嗯', '嗳', '嘍', '嘎', '嘎登', '嘔', '嘘', '嘛', '嘻', '嘿', '嘿嘿', '噓', '噯', '嚇', '因', '因为', '因了', '因此', '因爲', '因着', '因而', '固然', '在', '在下', '在于', '在於', '地', '基于', '基於', '处在', '多', '多么', '多少', '多麼', '大', '大家', '她', '她们', '她們', '好', '如', '如上', '如上所述', '如下', '如何', '如其', '如同', '如是', '如果', '如此', '如若', '始而', '孰料', '孰知', '宁', '宁可', '宁愿', '宁肯', '它', '它们', '它們', '寧', '寧可', '寧肯', '寧願', '对', '对于', '对待', '对方', '对比', '将', '將', '對', '對待', '對方', '對於', '對比', '小', '尔', '尔后', '尔尔', '尚且', '就', '就是', '就是了', '就是說', '就是说', '就算', '就要', '尽', '尽管', '尽管如此', '岂但', '己', '已', '已矣', '巴', '巴巴', '并', '并且', '并非', '幾', '幾時', '庶乎', '庶几', '庶幾', '开外', '开始', '归', '归齐', '当', '当地', '当然', '当着', '彼', '彼时', '彼時', '彼此', '往', '待', '很', '後', '後者', '得', '得了', '從', '從此', '從而', '怎', '怎么', '怎么办', '怎么样', '怎奈', '怎样', '怎樣', '怎麼', '怎麼樣', '怎麼辦', '总之', '总的来看', '总的来说', '总的说来', '总而言之', '恰恰相反', '您', '惟其', '慢說', '慢说', '憑', '憑藉', '我', '我们', '我們', '或', '或则', '或則', '或是', '或曰', '或者', '截至', '所', '所以', '所在', '所幸', '所有', '才', '才能', '打', '打从', '打從', '把', '抑或', '拿', '按', '按照', '换句话说', '换言之', '据', '据此', '接着', '換句話說', '換言之', '據', '據此', '故', '故此', '故而', '於', '於是', '於是乎', '旁人', '无', '无宁', '无论', '既', '既往', '既是', '既然', '时候', '是', '是以', '是的', '時候', '曾', '替', '替代', '最', '有', '有些', '有关', '有及', '有时', '有時', '有的', '有關', '望', '朝', '朝着', '本', '本人', '本地', '本着', '本身', '来', '来着', '来自', '来说', '极了', '果然', '果真', '某', '某个', '某些', '某個', '某某', '根据', '根據', '極了', '欤', '歟', '正值', '正如', '正巧', '正是', '此', '此地', '此处', '此外', '此时', '此時', '此次', '此處', '此間', '此间', '歸', '歸齊', '毋宁', '毋寧', '每', '每当', '每當', '比', '比及', '比如', '比方', '沒奈何', '没奈何', '沿', '沿着', '況且', '漫說', '漫说', '烏乎', '焉', '無', '無寧', '無論', '然则', '然則', '然后', '然後', '然而', '照', '照着', '爲', '爲了', '爲什麼', '爲何', '爲止', '爲此', '爲着', '爾', '爾後', '爾爾', '犹且', '犹自', '猶且', '猶自', '甚且', '甚么', '甚或', '甚而', '甚至', '甚至于', '甚至於', '甚麼', '用', '用來', '用来', '由', '由于', '由於', '由是', '由此', '由此可見', '由此可见', '當', '當地', '當然', '當着', '的', '的确', '的確', '的話', '的话', '盡', '直到', '相对而言', '相對而言', '省得', '看', '眨眼', '着', '着呢', '矣', '矣乎', '矣哉', '离', '竟而', '第', '等', '等到', '等等', '简言之', '管', '簡言之', '类如', '紧接着', '結果', '給', '經', '經過', '綜上所述', '緊接着', '縱', '縱令', '縱使', '縱然', '總之', '總的來看', '總的來說', '總的說來', '總而言之', '繼之', '繼後', '繼而', '纵', '纵令', '纵使', '纵然', '经', '经过', '结果', '给', '继之', '继后', '继而', '综上所述', '罢了', '罷了', '者', '而', '而且', '而况', '而后', '而外', '而已', '而後', '而是', '而況', '而言', '能', '能否', '腾', '臨', '自', '自个儿', '自从', '自個兒', '自各儿', '自各兒', '自后', '自家', '自己', '自後', '自從', '自打', '自身', '至', '至于', '至今', '至於', '至若', '致', '與', '與其', '與其說', '與否', '與此同時', '般的', '若', '若夫', '若是', '若果 ', '若非', '莫不然', '莫如', '莫若', '萬一', '處在', '虽', '虽则', '虽然', '虽说', '衝', '被', '要', '要不', '要不是', '要不然', '要么', '要是', '要麼', '設使', '設或', '設若', '許多', '該', '誠如', '誠然', '說來', '誰', '誰人', '誰料', '誰知', '論', '諸', '諸位', '諸如', '譁', '譬喻', '譬如', '讓', '让', '许多', '论', '设使', '设或', '设若', '诚如', '诚然', '该', '说来', '诸', '诸位', '诸如', '谁', '谁人', '谁料', '谁知', '豈但', '賊死', '賴以', '贼死', '赖以', '赶', '起', '起見', '起见', '趁', '趁着', '越是', '趕', '距', '跟', '較', '較之', '较', '较之', '边', '过', '还', '还是', '还有', '还要', '这', '这一来', '这个', '这么', '这么些', '这么样', '这么点儿', '这些', '这会儿', '这儿', '这就是说', '这时', '这样', '这次', '这般', '这边', '这里', '进而', '连', '连同', '逐步', '這', '這一來', '這些', '這個', '這兒', '這就是說', '這時', '這會兒', '這樣', '這次', '這般', '這裏', '這邊', '這麼', '這麼些', '這麼樣', '這麼點兒', '通过', '通過', '連', '連同', '進而', '過', '遵循', '遵照', '還', '還是', '還有', '還要', '邊', '那', '那个', '那么', '那么些', '那么样', '那些', '那会儿', '那個', '那儿', '那兒', '那时', '那時', '那會兒', '那样', '那樣', '那般', '那裏', '那边', '那邊', '那里', '那麼', '那麼些', '那麼樣', '都', '鄙人', '針對', '鉴于', '鑑於', '针对', '開外', '開始', '關於', '阿', '除', '除了', '除外', '除开', '除此之外', '除開', '除非', '随', '随后', '随时', '随着', '隨', '隨後', '隨時', '隨着', '难道说', '雖', '雖則', '雖然', '雖說', '離', '難道說', '非但', '非徒', '非特', '非独', '非獨', '靠', '順', '順着', '類如', '顺', '顺着', '餘外', '首先', '騰', '麼', '！', '，', '：', '；', '？', '!', '\"', '#', '%', '&', \"'\", '(', ')', '*', ',', '-', '.', '/', ':', ';', '?', '@', '[', '\\\\', ']', '_', '{', '}', '¡', '§', '«', '¶', '·', '»', '¿', ';', '·', '՚', '՛', '՜', '՝', '՞', '՟', '։', '֊', '־', '׀', '׃', '׆', '׳', '״', '؉', '؊', '،', '؍', '؛', '؞', '؟', '٪', '٫', '٬', '٭', '۔', '܀', '܁', '܂', '܃', '܄', '܅', '܆', '܇', '܈', '܉', '܊', '܋', '܌', '܍', '߷', '߸', '߹', '࠰', '࠱', '࠲', '࠳', '࠴', '࠵', '࠶', '࠷', '࠸', '࠹', '࠺', '࠻', '࠼', '࠽', '࠾', '࡞', '।', '॥', '॰', '৽', '੶', '૰', '಄', '෴', '๏', '๚', '๛', '༄', '༅', '༆', '༇', '༈', '༉', '༊', '་', '༌', '།', '༎', '༏', '༐', '༑', '༒', '༔', '༺', '༻', '༼', '༽', '྅', '࿐', '࿑', '࿒', '࿓', '࿔', '࿙', '࿚', '၊', '။', '၌', '၍', '၎', '၏', '჻', '፠', '፡', '።', '፣', '፤', '፥', '፦', '፧', '፨', '᐀', '᙭', '᙮', '᚛', '᚜', '᛫', '᛬', '᛭', '᜵', '᜶', '។', '៕', '៖', '៘', '៙', '៚', '᠀', '᠁', '᠂', '᠃', '᠄', '᠅', '᠆', '᠇', '᠈', '᠉', '᠊', '᥄', '᥅', '᨞', '᨟', '᪠', '᪡', '᪢', '᪣', '᪤', '᪥', '᪦', '᪨', '᪩', '᪪', '᪫', '᪬', '᪭', '᭚', '᭛', '᭜', '᭝', '᭞', '᭟', '᭠', '᯼', '᯽', '᯾', '᯿', '᰻', '᰼', '᰽', '᰾', '᰿', '᱾', '᱿', '᳀', '᳁', '᳂', '᳃', '᳄', '᳅', '᳆', '᳇', '᳓', '‐', '‑', '‒', '–', '—', '―', '‖', '‗', '‘', '’', '‚', '‛', '“', '”', '„', '‟', '†', '‡', '•', '‣', '․', '‥', '…', '‧', '‰', '‱', '′', '″', '‴', '‵', '‶', '‷', '‸', '‹', '›', '※', '‼', '‽', '‾', '‿', '⁀', '⁁', '⁂', '⁃', '⁅', '⁆', '⁇', '⁈', '⁉', '⁊', '⁋', '⁌', '⁍', '⁎', '⁏', '⁐', '⁑', '⁓', '⁔', '⁕', '⁖', '⁗', '⁘', '⁙', '⁚', '⁛', '⁜', '⁝', '⁞', '⁽', '⁾', '₍', '₎', '⌈', '⌉', '⌊', '⌋', '〈', '〉', '❨', '❩', '❪', '❫', '❬', '❭', '❮', '❯', '❰', '❱', '❲', '❳', '❴', '❵', '⟅', '⟆', '⟦', '⟧', '⟨', '⟩', '⟪', '⟫', '⟬', '⟭', '⟮', '⟯', '⦃', '⦄', '⦅', '⦆', '⦇', '⦈', '⦉', '⦊', '⦋', '⦌', '⦍', '⦎', '⦏', '⦐', '⦑', '⦒', '⦓', '⦔', '⦕', '⦖', '⦗', '⦘', '⧘', '⧙', '⧚', '⧛', '⧼', '⧽', '⳹', '⳺', '⳻', '⳼', '⳾', '⳿', '⵰', '⸀', '⸁', '⸂', '⸃', '⸄', '⸅', '⸆', '⸇', '⸈', '⸉', '⸊', '⸋', '⸌', '⸍', '⸎', '⸏', '⸐', '⸑', '⸒', '⸓', '⸔', '⸕', '⸖', '⸗', '⸘', '⸙', '⸚', '⸛', '⸜', '⸝', '⸞', '⸟', '⸠', '⸡', '⸢', '⸣', '⸤', '⸥', '⸦', '⸧', '⸨', '⸩', '⸪', '⸫', '⸬', '⸭', '⸮', '⸰', '⸱', '⸲', '⸳', '⸴', '⸵', '⸶', '⸷', '⸸', '⸹', '⸺', '⸻', '⸼', '⸽', '⸾', '⸿', '⹀', '⹁', '⹂', '⹃', '⹄', '⹅', '⹆', '⹇', '⹈', '⹉', '⹊', '⹋', '⹌', '⹍', '⹎', '、', '。', '〃', '〈', '〉', '《', '》', '「', '」', '『', '』', '【', '】', '〔', '〕', '〖', '〗', '〘', '〙', '〚', '〛', '〜', '〝', '〞', '〟', '〰', '〽', '゠', '・', '꓾', '꓿', '꘍', '꘎', '꘏', '꙳', '꙾', '꛲', '꛳', '꛴', '꛵', '꛶', '꛷', '꡴', '꡵', '꡶', '꡷', '꣎', '꣏', '꣸', '꣹', '꣺', '꣼', '꤮', '꤯', '꥟', '꧁', '꧂', '꧃', '꧄', '꧅', '꧆', '꧇', '꧈', '꧉', '꧊', '꧋', '꧌', '꧍', '꧞', '꧟', '꩜', '꩝', '꩞', '꩟', '꫞', '꫟', '꫰', '꫱', '꯫', '﴾', '﴿', '︐', '︑', '︒', '︓', '︔', '︕', '︖', '︗', '︘', '︙', '︰', '︱', '︲', '︳', '︴', '︵', '︶', '︷', '︸', '︹', '︺', '︻', '︼', '︽', '︾', '︿', '﹀', '﹁', '﹂', '﹃', '﹄', '﹅', '﹆', '﹇', '﹈', '﹉', '﹊', '﹋', '﹌', '﹍', '﹎', '﹏', '﹐', '﹑', '﹒', '﹔', '﹕', '﹖', '﹗', '﹘', '﹙', '﹚', '﹛', '﹜', '﹝', '﹞', '﹟', '﹠', '﹡', '﹣', '﹨', '﹪', '﹫', '！', '＂', '＃', '％', '＆', '＇', '（', '）', '＊', '，', '－', '．', '／', '：', '；', '？', '＠', '［', '＼', '］', '＿', '｛', '｝', '｟', '｠', '｡', '｢', '｣', '､', '･', '𐄀', '𐄁', '𐄂', '𐎟', '𐏐', '𐕯', '𐡗', '𐤟', '𐤿', '𐩐', '𐩑', '𐩒', '𐩓', '𐩔', '𐩕', '𐩖', '𐩗', '𐩘', '𐩿', '𐫰', '𐫱', '𐫲', '𐫳', '𐫴', '𐫵', '𐫶', '𐬹', '𐬺', '𐬻', '𐬼', '𐬽', '𐬾', '𐬿', '𐮙', '𐮚', '𐮛', '𐮜', '𐽕', '𐽖', '𐽗', '𐽘', '𐽙', '𑁇', '𑁈', '𑁉', '𑁊', '𑁋', '𑁌', '𑁍', '𑂻', '𑂼', '𑂾', '𑂿', '𑃀', '𑃁', '𑅀', '𑅁', '𑅂', '𑅃', '𑅴', '𑅵', '𑇅', '𑇆', '𑇇', '𑇈', '𑇍', '𑇛', '𑇝', '𑇞', '𑇟', '𑈸', '𑈹', '𑈺', '𑈻', '𑈼', '𑈽', '𑊩', '𑑋', '𑑌', '𑑍', '𑑎', '𑑏', '𑑛', '𑑝', '𑓆', '𑗁', '𑗂', '𑗃', '𑗄', '𑗅', '𑗆', '𑗇', '𑗈', '𑗉', '𑗊', '𑗋', '𑗌', '𑗍', '𑗎', '𑗏', '𑗐', '𑗑', '𑗒', '𑗓', '𑗔', '𑗕', '𑗖', '𑗗', '𑙁', '𑙂', '𑙃', '𑙠', '𑙡', '𑙢', '𑙣', '𑙤', '𑙥', '𑙦', '𑙧', '𑙨', '𑙩', '𑙪', '𑙫', '𑙬', '𑜼', '𑜽', '𑜾', '𑠻', '𑨿', '𑩀', '𑩁', '𑩂', '𑩃', '𑩄', '𑩅', '𑩆', '𑪚', '𑪛', '𑪜', '𑪞', '𑪟', '𑪠', '𑪡', '𑪢', '𑱁', '𑱂', '𑱃', '𑱄', '𑱅', '𑱰', '𑱱', '𑻷', '𑻸', '𒑰', '𒑱', '𒑲', '𒑳', '𒑴', '𖩮', '𖩯', '𖫵', '𖬷', '𖬸', '𖬹', '𖬺', '𖬻', '𖭄', '𖺗', '𖺘', '𖺙', '𖺚', '𛲟', '𝪇', '𝪈', '𝪉', '𝪊', '𝪋', '𞥞', '𞥟']\n"
     ]
    }
   ],
   "source": [
    "print (JB.stopwords)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 91,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'很多事 这阵子 明白 多事 这阵子 突然 不明白 这半个 月 里 情绪 过山车 起伏 不安 多事情 感动 英勇 平凡 满怀 希望 愤怒 无力 难 形容 这阵子 生活 想来 想 仅 仅 想 一个 词 生活 脆 弱性 生活 脆弱 短 短半个 月 里 换 副 难以 接受 模样 知道 态度 面对 目前 生活 前线 有人 发沙 雕视频 做 科普 捐 物资 有人 祈祷 人默默 有件 事 想 期盼 回到 原来 普通 没有 伤痛 日子 快好 起来'"
      ]
     },
     "execution_count": 91,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "JB.cut_text(df.loc[0,\"content_raw\"])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 93,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'仔细想 想 过去 一分开 后来 真 没 容易 见面 意思 一个 见面 似乎 会 耿耿于 怀 久 斤斤 计较 久 想方 设法 删好友 屏蔽 朋友圈 拉 黑联系 方式 其实 分开 那刻 已经 身边 消失 动作 说 底 做 换个 方式 做点 无关 事 做点 属 事 许会 更 快'"
      ]
     },
     "execution_count": 93,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "JB.cut_text(df.loc[4,\"content_raw\"])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 新增栏位doc\n",
    "把所有的文本（包括标题和content_raw）都整合起来，放到后面新增的doc栏目上"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 94,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>title</th>\n",
       "      <th>create_time</th>\n",
       "      <th>link</th>\n",
       "      <th>content_raw</th>\n",
       "      <th>doc</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>“冲啊！！！！！”</td>\n",
       "      <td>2020-07-06</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>很多事是这阵子才明白的。\\n\\n \\n\\n也有很多事是这阵子突然不明白的。\\n\\n\\n\\n这...</td>\n",
       "      <td>“冲啊！！！！！”-----很多事是这阵子才明白的。\\n\\n \\n\\n也有很多事是这阵子突然...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>“我也想被你秒回。”</td>\n",
       "      <td>2020-07-03</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>记录下那段和妈妈的对话到现在，其实已经过去两年。两年前很多人会跟我说，知道归知道，懊恼归懊恼...</td>\n",
       "      <td>“我也想被你秒回。”-----记录下那段和妈妈的对话到现在，其实已经过去两年。两年前很多人会...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>“一个秘密。”</td>\n",
       "      <td>2020-07-01</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>人是擅长自欺欺人的，尤其是在喜欢这件事情上。 \\n\\n\\n\\n我们总是能找到角度，给坏结局一...</td>\n",
       "      <td>“一个秘密。”-----人是擅长自欺欺人的，尤其是在喜欢这件事情上。 \\n\\n\\n\\n我们总...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>“你以前不是这样的。”</td>\n",
       "      <td>2020-06-29</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>值得一提的是，并不是只有“恶化”的关系才会让人感觉到变了。\\n\\n \\n\\n当双方关系升温时...</td>\n",
       "      <td>“你以前不是这样的。”-----值得一提的是，并不是只有“恶化”的关系才会让人感觉到变了。\\...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>“我还是会偷看你的朋友圈。”</td>\n",
       "      <td>2020-06-27</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>仔细想想，过去和某个人一分开，\\n\\n后来真的就没那么容易再见面。\\n\\n\\n\\n但有意思的...</td>\n",
       "      <td>“我还是会偷看你的朋友圈。”-----仔细想想，过去和某个人一分开，\\n\\n后来真的就没那么...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>​最后，我们​没能在一起。</td>\n",
       "      <td>2020-01-04</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>有天和女朋友闹矛盾，难过的我想象着分手后的模样。\\n\\n我心想，她应该会说，我其实不爱她。\\...</td>\n",
       "      <td>​最后，我们​没能在一起。-----有天和女朋友闹矛盾，难过的我想象着分手后的模样。\\n\\n...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>有些事，我只想和你一起做。</td>\n",
       "      <td>2020-01-04</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>这阵子发生了太多复杂的事情。\\n\\n \\n\\n而最令人心慌的可能是，今天听到一个好消息，明天...</td>\n",
       "      <td>有些事，我只想和你一起做。-----这阵子发生了太多复杂的事情。\\n\\n \\n\\n而最令人心...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>“19年也终于到头了。”</td>\n",
       "      <td>2019-12-30</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>每到年底，常看到一些年度报告的刷屏。\\n\\n\\n\\n听歌的报告，消费的报告，出行的报告，等等...</td>\n",
       "      <td>“19年也终于到头了。”-----每到年底，常看到一些年度报告的刷屏。\\n\\n\\n\\n听歌的...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>“我以前没喜欢过别人”</td>\n",
       "      <td>2019-12-24</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>原本的剧本里，男孩真的是个能穿越时空的杀手。\\n\\n\\n\\n然后他因为喜欢女孩，所以放弃了任...</td>\n",
       "      <td>“我以前没喜欢过别人”-----原本的剧本里，男孩真的是个能穿越时空的杀手。\\n\\n\\n\\n...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>不准管我，哼！</td>\n",
       "      <td>2019-12-24</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>“真的较真”\\n\\n \\n\\n是宠物品牌LORDE里兜，对爱和陪伴的诠释\\n\\n \\n\\n了...</td>\n",
       "      <td>不准管我，哼！-----“真的较真”\\n\\n \\n\\n是宠物品牌LORDE里兜，对爱和陪伴的...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>“再等一等吧。”</td>\n",
       "      <td>2019-12-21</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>陈奕迅的《葡萄成熟时》很奇怪，明明整首歌是在聊“收获”、“努力”和“等待”，用的比喻也只是“...</td>\n",
       "      <td>“再等一等吧。”-----陈奕迅的《葡萄成熟时》很奇怪，明明整首歌是在聊“收获”、“努力”和...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>“你现在不懂我也没关系”</td>\n",
       "      <td>2019-12-17</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>写这篇文章时，听朋友分享过一个故事。\\n\\n一个女生，把男朋友平日里做错的、她在意的，都记在...</td>\n",
       "      <td>“你现在不懂我也没关系”-----写这篇文章时，听朋友分享过一个故事。\\n\\n一个女生，把男...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>跟我走吧。</td>\n",
       "      <td>2019-12-17</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>我们一直尝试着让故事稍微有意思点。这次的形式，其实我们也知道会有一部分的人看不到，可能会导致...</td>\n",
       "      <td>跟我走吧。-----我们一直尝试着让故事稍微有意思点。这次的形式，其实我们也知道会有一部分的...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>喜欢，但不合适。</td>\n",
       "      <td>2020-06-13</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>听过很多话，总觉得喜欢，应该是一股比较强大的力量。\\n\\n \\n\\n异地、时间、世俗，再多的...</td>\n",
       "      <td>喜欢，但不合适。-----听过很多话，总觉得喜欢，应该是一股比较强大的力量。\\n\\n \\n\\...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>累了的话，可以靠在我身上。</td>\n",
       "      <td>2020-06-11</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>记得有一次陪男朋友去演讲，我们一起坐动车前往别的城市。\\n\\n \\n\\n当时是下午两点多，阳...</td>\n",
       "      <td>累了的话，可以靠在我身上。-----记得有一次陪男朋友去演讲，我们一起坐动车前往别的城市。\\...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>我开始试着给糟糕的生活，留点「快乐基金」。</td>\n",
       "      <td>2020-06-09</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>后来我去问了身边一些朋友，到底存多少钱才算是有安全感？\\n\\n \\n\\n还在读书的朋友说：存...</td>\n",
       "      <td>我开始试着给糟糕的生活，留点「快乐基金」。-----后来我去问了身边一些朋友，到底存多少钱才...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>“如果不是4万/平的房价，我早就求婚了。”</td>\n",
       "      <td>2020-06-06</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>有个朋友谈了好几年恋爱，女生一直等男生一句结婚，但男生因为经济情况很差，迟迟没有开口。\\n\\...</td>\n",
       "      <td>“如果不是4万/平的房价，我早就求婚了。”-----有个朋友谈了好几年恋爱，女生一直等男生一...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>17</th>\n",
       "      <td>今天，想和你们坐着聊聊天。</td>\n",
       "      <td>2020-06-03</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>他没有说我，没有还手，只是下意识地抓住我，想我安全地通过扶梯——这是我后来回看视频时才发现的...</td>\n",
       "      <td>今天，想和你们坐着聊聊天。-----他没有说我，没有还手，只是下意识地抓住我，想我安全地通过...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>18</th>\n",
       "      <td>“你当我还是小孩子啊？”“是啊。”</td>\n",
       "      <td>2020-05-31</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>前些天看一好朋友发了条朋友圈：\\n\\n“好想做个小孩啊。”\\n\\n \\n\\n想评论些什么时，...</td>\n",
       "      <td>“你当我还是小孩子啊？”“是啊。”-----前些天看一好朋友发了条朋友圈：\\n\\n“好想做个...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>19</th>\n",
       "      <td>“不想你太累。”</td>\n",
       "      <td>2020-05-28</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>人总是想给重要的人更好的生活。\\n\\n \\n\\n为此付出了不少的努力，也做出了不少的牺牲。\\...</td>\n",
       "      <td>“不想你太累。”-----人总是想给重要的人更好的生活。\\n\\n \\n\\n为此付出了不少的努...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>20</th>\n",
       "      <td>“你不说我都忘了。”“真好。”</td>\n",
       "      <td>2020-05-23</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>以前我不太喜欢拍照，加上记性差，很多旧事常常被我忘记。\\n\\n \\n\\n那时候会有些沮丧，觉...</td>\n",
       "      <td>“你不说我都忘了。”“真好。”-----以前我不太喜欢拍照，加上记性差，很多旧事常常被我忘记...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>21</th>\n",
       "      <td>520那天，我买了项服务。</td>\n",
       "      <td>2020-05-19</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>最后一幕里，男主明明已经表达了自己对这个活动的不满，但沟通无果放弃后，商家依然能笑脸盈盈的，...</td>\n",
       "      <td>520那天，我买了项服务。-----最后一幕里，男主明明已经表达了自己对这个活动的不满，但沟...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>22</th>\n",
       "      <td>我害怕的不是结婚这件事。</td>\n",
       "      <td>2020-05-16</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>昨晚刚看了最新一期的《非正式会谈》，\\n\\n来自印度的天乐，分享了自己童年经历。\\n\\n \\...</td>\n",
       "      <td>我害怕的不是结婚这件事。-----昨晚刚看了最新一期的《非正式会谈》，\\n\\n来自印度的天乐...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>23</th>\n",
       "      <td>“还是想做个温柔的人。”</td>\n",
       "      <td>2020-05-13</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>想聊的其实不是校园暴力也不是网络暴力。\\n\\n \\n\\n而是当我们努力以平和的心态，去保护一...</td>\n",
       "      <td>“还是想做个温柔的人。”-----想聊的其实不是校园暴力也不是网络暴力。\\n\\n \\n\\n而...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>24</th>\n",
       "      <td>“努力！奋斗！”</td>\n",
       "      <td>2020-05-10</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>刚毕业时会发现，生活其实有蛮多种选择的。\\n\\n \\n\\n但往往这些选择里，不包括你自己最想...</td>\n",
       "      <td>“努力！奋斗！”-----刚毕业时会发现，生活其实有蛮多种选择的。\\n\\n \\n\\n但往往这...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>25</th>\n",
       "      <td>“等你。”</td>\n",
       "      <td>2020-05-07</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>已经想不起来，我妈是从什么时候开始，不再发那么长的语音。\\n\\n \\n\\n后来才听她说。\\n...</td>\n",
       "      <td>“等你。”-----已经想不起来，我妈是从什么时候开始，不再发那么长的语音。\\n\\n \\n\\...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>26</th>\n",
       "      <td>“离开时要做的三件事。”</td>\n",
       "      <td>2020-05-02</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>见过很多分开时，各式各样的遗憾。\\n\\n \\n\\n有些人满怀怨念，等到很多年后才后悔当时撕破...</td>\n",
       "      <td>“离开时要做的三件事。”-----见过很多分开时，各式各样的遗憾。\\n\\n \\n\\n有些人满...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>27</th>\n",
       "      <td>“很多事，突然就变了。”</td>\n",
       "      <td>2020-04-28</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>朋友告诉我，办公室门口的树叫黄花铃木。\\n\\n \\n\\n和我不一样的是，他对花凋谢这件事习以...</td>\n",
       "      <td>“很多事，突然就变了。”-----朋友告诉我，办公室门口的树叫黄花铃木。\\n\\n \\n\\n和...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>28</th>\n",
       "      <td>“我可能不会为你留下。”</td>\n",
       "      <td>2020-04-25</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>其实mv的故事，不完全是悲剧。\\n\\n \\n\\n在最后，车到站时，难过的男主看向了车门处，愣...</td>\n",
       "      <td>“我可能不会为你留下。”-----其实mv的故事，不完全是悲剧。\\n\\n \\n\\n在最后，车...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>29</th>\n",
       "      <td>“拜拜。”</td>\n",
       "      <td>2020-04-21</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>看过一个段子：\\n\\n \\n\\n“你还想他吗？”\\n\\n“不想，我放下了。”\\n\\n“可我还...</td>\n",
       "      <td>“拜拜。”-----看过一个段子：\\n\\n \\n\\n“你还想他吗？”\\n\\n“不想，我放下了...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>30</th>\n",
       "      <td>“又不是第一次失恋了。”</td>\n",
       "      <td>2020-04-18</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>这是一首带有雨声的歌，3月份初，我每晚靠着它入眠。\\n\\n \\n\\n朋友听到1129这个数字...</td>\n",
       "      <td>“又不是第一次失恋了。”-----这是一首带有雨声的歌，3月份初，我每晚靠着它入眠。\\n\\n...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>31</th>\n",
       "      <td>“别气啦。”</td>\n",
       "      <td>2020-04-14</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>第一次看到这个故事时，我说两个老人的故事不错。\\n\\n \\n\\n编剧点点头，说：“因为是真事...</td>\n",
       "      <td>“别气啦。”-----第一次看到这个故事时，我说两个老人的故事不错。\\n\\n \\n\\n编剧点...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>32</th>\n",
       "      <td>“累了。”</td>\n",
       "      <td>2020-04-11</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>以前常常会焦虑。\\n\\n\\n\\n这种焦虑源自于，自己想要的，和现实有巨大的落差。\\n\\n\\n...</td>\n",
       "      <td>“累了。”-----以前常常会焦虑。\\n\\n\\n\\n这种焦虑源自于，自己想要的，和现实有巨大...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>33</th>\n",
       "      <td>“我在。”</td>\n",
       "      <td>2020-04-07</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>成年人的难处总是千奇百怪的。\\n\\n \\n\\n于是理解的人少，于是不爱说，于是陷进了孤独的圈...</td>\n",
       "      <td>“我在。”-----成年人的难处总是千奇百怪的。\\n\\n \\n\\n于是理解的人少，于是不爱说...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>34</th>\n",
       "      <td>你不喜欢我也OK。</td>\n",
       "      <td>2020-04-05</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>这次的结尾我写了很久。\\n\\n\\n\\n我前面都写得很顺，写到”生活就像被锁在房子里“时，也还...</td>\n",
       "      <td>你不喜欢我也OK。-----这次的结尾我写了很久。\\n\\n\\n\\n我前面都写得很顺，写到”生...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>35</th>\n",
       "      <td>“我很开朗，装的。”</td>\n",
       "      <td>2020-03-31</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>问过一些朋友，对内向的人有什么形容词。\\n\\n\\n\\n人们给出的回答有很多，比如敏感，比如安...</td>\n",
       "      <td>“我很开朗，装的。”-----问过一些朋友，对内向的人有什么形容词。\\n\\n\\n\\n人们给出...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>36</th>\n",
       "      <td>既然要走，就别回头了。</td>\n",
       "      <td>2020-03-28</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>其实在我心里，这个故事还有最后的一小段。\\n\\n\\n\\n17岁那年最后的结局是，男生在机场里...</td>\n",
       "      <td>既然要走，就别回头了。-----其实在我心里，这个故事还有最后的一小段。\\n\\n\\n\\n17...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>37</th>\n",
       "      <td>待在你身边，就很安心。</td>\n",
       "      <td>2020-03-28</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>谈过恋爱之后，我一直有个感受，就是不想当女朋友了，想当男朋友。\\n\\n \\n\\n因为男朋友，...</td>\n",
       "      <td>待在你身边，就很安心。-----谈过恋爱之后，我一直有个感受，就是不想当女朋友了，想当男朋友...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>38</th>\n",
       "      <td>夏天要来了，你还离开吗？</td>\n",
       "      <td>2020-03-24</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>那个偷偷写信的，仰望着于默的陈欢，可能也想过她这样的小透明怎么会被喜欢呢。\\n\\n \\n\\n...</td>\n",
       "      <td>夏天要来了，你还离开吗？-----那个偷偷写信的，仰望着于默的陈欢，可能也想过她这样的小透明...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>39</th>\n",
       "      <td>“想和你一起老去。”</td>\n",
       "      <td>2020-03-21</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>感情这件事，似乎是挺难想明白的。\\n\\n \\n\\n所以常常在还没开始的时候，就会害怕以后的事...</td>\n",
       "      <td>“想和你一起老去。”-----感情这件事，似乎是挺难想明白的。\\n\\n \\n\\n所以常常在还...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>40</th>\n",
       "      <td>睡不着的时候，我想见到你。</td>\n",
       "      <td>2020-03-21</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>故事里有两段话。\\n\\n \\n\\n“因为我喜欢你，所以只要你多说几次，我还是会同意，那就直接...</td>\n",
       "      <td>睡不着的时候，我想见到你。-----故事里有两段话。\\n\\n \\n\\n“因为我喜欢你，所以只...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>41</th>\n",
       "      <td>“其实我过得很开心。”</td>\n",
       "      <td>2020-03-17</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>常常有各种原因，阻碍我们过上理想的生活。\\n\\n \\n\\n可能是父母的不支持，外人的不理解，...</td>\n",
       "      <td>“其实我过得很开心。”-----常常有各种原因，阻碍我们过上理想的生活。\\n\\n \\n\\n可...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>42</th>\n",
       "      <td>很喜欢的人，也可以真心说再见。</td>\n",
       "      <td>2020-03-13</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>第一次听《不能说的秘密》，没有特别喜欢。\\n\\n\\n\\n第二次听时是一两年后，意外地被触动到...</td>\n",
       "      <td>很喜欢的人，也可以真心说再见。-----第一次听《不能说的秘密》，没有特别喜欢。\\n\\n\\n...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>43</th>\n",
       "      <td>“你忙完，要记得找我。”</td>\n",
       "      <td>2020-03-09</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>后来朋友问我：“你怪过他吗？”\\n\\n \\n\\n我想了想，摇了摇头。\\n\\n \\n\\n前途和...</td>\n",
       "      <td>“你忙完，要记得找我。”-----后来朋友问我：“你怪过他吗？”\\n\\n \\n\\n我想了想，...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>44</th>\n",
       "      <td>“我才不会喜欢你。”</td>\n",
       "      <td>2020-03-06</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>我突然想到另外一个事情。\\n\\n\\n\\n培养一个习惯要多久呢？有些人会说21天，对吧？但其实...</td>\n",
       "      <td>“我才不会喜欢你。”-----我突然想到另外一个事情。\\n\\n\\n\\n培养一个习惯要多久呢？...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>45</th>\n",
       "      <td>“今年的你，还好吗”</td>\n",
       "      <td>2020-03-02</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>下面这个长长的故事，来自我们团队另一个号《拥抱要深》（点击可直接跳转）\\n\\n\\n\\n发布这...</td>\n",
       "      <td>“今年的你，还好吗”-----下面这个长长的故事，来自我们团队另一个号《拥抱要深》（点击可直...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>46</th>\n",
       "      <td>“我早就知道会失去你。”</td>\n",
       "      <td>2020-02-28</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>见过很多朋友，即便努力挣扎过很多次，最后也只落得一个让人心疼的结局。\\n\\n\\n\\n我问他们...</td>\n",
       "      <td>“我早就知道会失去你。”-----见过很多朋友，即便努力挣扎过很多次，最后也只落得一个让人心...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>47</th>\n",
       "      <td>“想喜欢，但怕了。”</td>\n",
       "      <td>2020-02-24</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>我听过很多等式。\\n\\n\\n\\n太喜欢=容易受伤=容易被追到=失去主动权=更卑微\\n\\n\\n...</td>\n",
       "      <td>“想喜欢，但怕了。”-----我听过很多等式。\\n\\n\\n\\n太喜欢=容易受伤=容易被追到=...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>48</th>\n",
       "      <td>其实，我是真的在乎你</td>\n",
       "      <td>2020-02-21</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>亲密关系里，多数的不愉快都和“关心”有关。\\n\\n \\n\\n譬如抱怨对方的不在乎，譬如抱怨对...</td>\n",
       "      <td>其实，我是真的在乎你-----亲密关系里，多数的不愉快都和“关心”有关。\\n\\n \\n\\n譬...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>49</th>\n",
       "      <td>“喜欢你的日子，都结束了。”</td>\n",
       "      <td>2020-02-17</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>我有时会想一个问题——在路上偶遇喜欢过的人时，会有些不自然，这是正常的吗。\\n\\n\\n\\n之...</td>\n",
       "      <td>“喜欢你的日子，都结束了。”-----我有时会想一个问题——在路上偶遇喜欢过的人时，会有些不...</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>50</th>\n",
       "      <td>五年级的表弟教我谈恋爱。</td>\n",
       "      <td>2020-02-14</td>\n",
       "      <td>http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...</td>\n",
       "      <td>\\n在上一篇推送《“我想…” “好”》里，有读者留言说：“感情这件事，哪里能那么清晰呢。”\\...</td>\n",
       "      <td>五年级的表弟教我谈恋爱。-----\\n在上一篇推送《“我想…” “好”》里，有读者留言说：“...</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "                    title create_time  \\\n",
       "0               “冲啊！！！！！”  2020-07-06   \n",
       "1              “我也想被你秒回。”  2020-07-03   \n",
       "2                 “一个秘密。”  2020-07-01   \n",
       "3             “你以前不是这样的。”  2020-06-29   \n",
       "4          “我还是会偷看你的朋友圈。”  2020-06-27   \n",
       "5           ​最后，我们​没能在一起。  2020-01-04   \n",
       "6           有些事，我只想和你一起做。  2020-01-04   \n",
       "7            “19年也终于到头了。”  2019-12-30   \n",
       "8             “我以前没喜欢过别人”  2019-12-24   \n",
       "9                 不准管我，哼！  2019-12-24   \n",
       "10               “再等一等吧。”  2019-12-21   \n",
       "11           “你现在不懂我也没关系”  2019-12-17   \n",
       "12                  跟我走吧。  2019-12-17   \n",
       "13               喜欢，但不合适。  2020-06-13   \n",
       "14          累了的话，可以靠在我身上。  2020-06-11   \n",
       "15  我开始试着给糟糕的生活，留点「快乐基金」。  2020-06-09   \n",
       "16  “如果不是4万/平的房价，我早就求婚了。”  2020-06-06   \n",
       "17          今天，想和你们坐着聊聊天。  2020-06-03   \n",
       "18      “你当我还是小孩子啊？”“是啊。”  2020-05-31   \n",
       "19               “不想你太累。”  2020-05-28   \n",
       "20        “你不说我都忘了。”“真好。”  2020-05-23   \n",
       "21          520那天，我买了项服务。  2020-05-19   \n",
       "22           我害怕的不是结婚这件事。  2020-05-16   \n",
       "23           “还是想做个温柔的人。”  2020-05-13   \n",
       "24               “努力！奋斗！”  2020-05-10   \n",
       "25                  “等你。”  2020-05-07   \n",
       "26           “离开时要做的三件事。”  2020-05-02   \n",
       "27           “很多事，突然就变了。”  2020-04-28   \n",
       "28           “我可能不会为你留下。”  2020-04-25   \n",
       "29                  “拜拜。”  2020-04-21   \n",
       "30           “又不是第一次失恋了。”  2020-04-18   \n",
       "31                 “别气啦。”  2020-04-14   \n",
       "32                  “累了。”  2020-04-11   \n",
       "33                  “我在。”  2020-04-07   \n",
       "34              你不喜欢我也OK。  2020-04-05   \n",
       "35             “我很开朗，装的。”  2020-03-31   \n",
       "36            既然要走，就别回头了。  2020-03-28   \n",
       "37            待在你身边，就很安心。  2020-03-28   \n",
       "38           夏天要来了，你还离开吗？  2020-03-24   \n",
       "39             “想和你一起老去。”  2020-03-21   \n",
       "40          睡不着的时候，我想见到你。  2020-03-21   \n",
       "41            “其实我过得很开心。”  2020-03-17   \n",
       "42        很喜欢的人，也可以真心说再见。  2020-03-13   \n",
       "43           “你忙完，要记得找我。”  2020-03-09   \n",
       "44             “我才不会喜欢你。”  2020-03-06   \n",
       "45             “今年的你，还好吗”  2020-03-02   \n",
       "46           “我早就知道会失去你。”  2020-02-28   \n",
       "47             “想喜欢，但怕了。”  2020-02-24   \n",
       "48             其实，我是真的在乎你  2020-02-21   \n",
       "49         “喜欢你的日子，都结束了。”  2020-02-17   \n",
       "50           五年级的表弟教我谈恋爱。  2020-02-14   \n",
       "\n",
       "                                                 link  \\\n",
       "0   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "1   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "2   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "3   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "4   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "5   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "6   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "7   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "8   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "9   http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "10  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "11  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "12  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "13  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "14  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "15  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "16  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "17  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "18  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "19  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "20  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "21  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "22  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "23  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "24  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "25  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "26  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "27  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "28  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "29  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "30  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "31  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "32  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "33  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "34  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "35  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "36  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "37  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "38  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "39  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "40  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "41  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "42  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "43  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "44  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "45  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "46  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "47  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "48  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "49  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "50  http://mp.weixin.qq.com/s?__biz=MzUzMjk1MDM1NQ...   \n",
       "\n",
       "                                          content_raw  \\\n",
       "0   很多事是这阵子才明白的。\\n\\n \\n\\n也有很多事是这阵子突然不明白的。\\n\\n\\n\\n这...   \n",
       "1   记录下那段和妈妈的对话到现在，其实已经过去两年。两年前很多人会跟我说，知道归知道，懊恼归懊恼...   \n",
       "2   人是擅长自欺欺人的，尤其是在喜欢这件事情上。 \\n\\n\\n\\n我们总是能找到角度，给坏结局一...   \n",
       "3   值得一提的是，并不是只有“恶化”的关系才会让人感觉到变了。\\n\\n \\n\\n当双方关系升温时...   \n",
       "4   仔细想想，过去和某个人一分开，\\n\\n后来真的就没那么容易再见面。\\n\\n\\n\\n但有意思的...   \n",
       "5   有天和女朋友闹矛盾，难过的我想象着分手后的模样。\\n\\n我心想，她应该会说，我其实不爱她。\\...   \n",
       "6   这阵子发生了太多复杂的事情。\\n\\n \\n\\n而最令人心慌的可能是，今天听到一个好消息，明天...   \n",
       "7   每到年底，常看到一些年度报告的刷屏。\\n\\n\\n\\n听歌的报告，消费的报告，出行的报告，等等...   \n",
       "8   原本的剧本里，男孩真的是个能穿越时空的杀手。\\n\\n\\n\\n然后他因为喜欢女孩，所以放弃了任...   \n",
       "9   “真的较真”\\n\\n \\n\\n是宠物品牌LORDE里兜，对爱和陪伴的诠释\\n\\n \\n\\n了...   \n",
       "10  陈奕迅的《葡萄成熟时》很奇怪，明明整首歌是在聊“收获”、“努力”和“等待”，用的比喻也只是“...   \n",
       "11  写这篇文章时，听朋友分享过一个故事。\\n\\n一个女生，把男朋友平日里做错的、她在意的，都记在...   \n",
       "12  我们一直尝试着让故事稍微有意思点。这次的形式，其实我们也知道会有一部分的人看不到，可能会导致...   \n",
       "13  听过很多话，总觉得喜欢，应该是一股比较强大的力量。\\n\\n \\n\\n异地、时间、世俗，再多的...   \n",
       "14  记得有一次陪男朋友去演讲，我们一起坐动车前往别的城市。\\n\\n \\n\\n当时是下午两点多，阳...   \n",
       "15  后来我去问了身边一些朋友，到底存多少钱才算是有安全感？\\n\\n \\n\\n还在读书的朋友说：存...   \n",
       "16  有个朋友谈了好几年恋爱，女生一直等男生一句结婚，但男生因为经济情况很差，迟迟没有开口。\\n\\...   \n",
       "17  他没有说我，没有还手，只是下意识地抓住我，想我安全地通过扶梯——这是我后来回看视频时才发现的...   \n",
       "18  前些天看一好朋友发了条朋友圈：\\n\\n“好想做个小孩啊。”\\n\\n \\n\\n想评论些什么时，...   \n",
       "19  人总是想给重要的人更好的生活。\\n\\n \\n\\n为此付出了不少的努力，也做出了不少的牺牲。\\...   \n",
       "20  以前我不太喜欢拍照，加上记性差，很多旧事常常被我忘记。\\n\\n \\n\\n那时候会有些沮丧，觉...   \n",
       "21  最后一幕里，男主明明已经表达了自己对这个活动的不满，但沟通无果放弃后，商家依然能笑脸盈盈的，...   \n",
       "22  昨晚刚看了最新一期的《非正式会谈》，\\n\\n来自印度的天乐，分享了自己童年经历。\\n\\n \\...   \n",
       "23  想聊的其实不是校园暴力也不是网络暴力。\\n\\n \\n\\n而是当我们努力以平和的心态，去保护一...   \n",
       "24  刚毕业时会发现，生活其实有蛮多种选择的。\\n\\n \\n\\n但往往这些选择里，不包括你自己最想...   \n",
       "25  已经想不起来，我妈是从什么时候开始，不再发那么长的语音。\\n\\n \\n\\n后来才听她说。\\n...   \n",
       "26  见过很多分开时，各式各样的遗憾。\\n\\n \\n\\n有些人满怀怨念，等到很多年后才后悔当时撕破...   \n",
       "27  朋友告诉我，办公室门口的树叫黄花铃木。\\n\\n \\n\\n和我不一样的是，他对花凋谢这件事习以...   \n",
       "28  其实mv的故事，不完全是悲剧。\\n\\n \\n\\n在最后，车到站时，难过的男主看向了车门处，愣...   \n",
       "29  看过一个段子：\\n\\n \\n\\n“你还想他吗？”\\n\\n“不想，我放下了。”\\n\\n“可我还...   \n",
       "30  这是一首带有雨声的歌，3月份初，我每晚靠着它入眠。\\n\\n \\n\\n朋友听到1129这个数字...   \n",
       "31  第一次看到这个故事时，我说两个老人的故事不错。\\n\\n \\n\\n编剧点点头，说：“因为是真事...   \n",
       "32  以前常常会焦虑。\\n\\n\\n\\n这种焦虑源自于，自己想要的，和现实有巨大的落差。\\n\\n\\n...   \n",
       "33  成年人的难处总是千奇百怪的。\\n\\n \\n\\n于是理解的人少，于是不爱说，于是陷进了孤独的圈...   \n",
       "34  这次的结尾我写了很久。\\n\\n\\n\\n我前面都写得很顺，写到”生活就像被锁在房子里“时，也还...   \n",
       "35  问过一些朋友，对内向的人有什么形容词。\\n\\n\\n\\n人们给出的回答有很多，比如敏感，比如安...   \n",
       "36  其实在我心里，这个故事还有最后的一小段。\\n\\n\\n\\n17岁那年最后的结局是，男生在机场里...   \n",
       "37  谈过恋爱之后，我一直有个感受，就是不想当女朋友了，想当男朋友。\\n\\n \\n\\n因为男朋友，...   \n",
       "38  那个偷偷写信的，仰望着于默的陈欢，可能也想过她这样的小透明怎么会被喜欢呢。\\n\\n \\n\\n...   \n",
       "39  感情这件事，似乎是挺难想明白的。\\n\\n \\n\\n所以常常在还没开始的时候，就会害怕以后的事...   \n",
       "40  故事里有两段话。\\n\\n \\n\\n“因为我喜欢你，所以只要你多说几次，我还是会同意，那就直接...   \n",
       "41  常常有各种原因，阻碍我们过上理想的生活。\\n\\n \\n\\n可能是父母的不支持，外人的不理解，...   \n",
       "42  第一次听《不能说的秘密》，没有特别喜欢。\\n\\n\\n\\n第二次听时是一两年后，意外地被触动到...   \n",
       "43  后来朋友问我：“你怪过他吗？”\\n\\n \\n\\n我想了想，摇了摇头。\\n\\n \\n\\n前途和...   \n",
       "44  我突然想到另外一个事情。\\n\\n\\n\\n培养一个习惯要多久呢？有些人会说21天，对吧？但其实...   \n",
       "45  下面这个长长的故事，来自我们团队另一个号《拥抱要深》（点击可直接跳转）\\n\\n\\n\\n发布这...   \n",
       "46  见过很多朋友，即便努力挣扎过很多次，最后也只落得一个让人心疼的结局。\\n\\n\\n\\n我问他们...   \n",
       "47  我听过很多等式。\\n\\n\\n\\n太喜欢=容易受伤=容易被追到=失去主动权=更卑微\\n\\n\\n...   \n",
       "48  亲密关系里，多数的不愉快都和“关心”有关。\\n\\n \\n\\n譬如抱怨对方的不在乎，譬如抱怨对...   \n",
       "49  我有时会想一个问题——在路上偶遇喜欢过的人时，会有些不自然，这是正常的吗。\\n\\n\\n\\n之...   \n",
       "50  \\n在上一篇推送《“我想…” “好”》里，有读者留言说：“感情这件事，哪里能那么清晰呢。”\\...   \n",
       "\n",
       "                                                  doc  \n",
       "0   “冲啊！！！！！”-----很多事是这阵子才明白的。\\n\\n \\n\\n也有很多事是这阵子突然...  \n",
       "1   “我也想被你秒回。”-----记录下那段和妈妈的对话到现在，其实已经过去两年。两年前很多人会...  \n",
       "2   “一个秘密。”-----人是擅长自欺欺人的，尤其是在喜欢这件事情上。 \\n\\n\\n\\n我们总...  \n",
       "3   “你以前不是这样的。”-----值得一提的是，并不是只有“恶化”的关系才会让人感觉到变了。\\...  \n",
       "4   “我还是会偷看你的朋友圈。”-----仔细想想，过去和某个人一分开，\\n\\n后来真的就没那么...  \n",
       "5   ​最后，我们​没能在一起。-----有天和女朋友闹矛盾，难过的我想象着分手后的模样。\\n\\n...  \n",
       "6   有些事，我只想和你一起做。-----这阵子发生了太多复杂的事情。\\n\\n \\n\\n而最令人心...  \n",
       "7   “19年也终于到头了。”-----每到年底，常看到一些年度报告的刷屏。\\n\\n\\n\\n听歌的...  \n",
       "8   “我以前没喜欢过别人”-----原本的剧本里，男孩真的是个能穿越时空的杀手。\\n\\n\\n\\n...  \n",
       "9   不准管我，哼！-----“真的较真”\\n\\n \\n\\n是宠物品牌LORDE里兜，对爱和陪伴的...  \n",
       "10  “再等一等吧。”-----陈奕迅的《葡萄成熟时》很奇怪，明明整首歌是在聊“收获”、“努力”和...  \n",
       "11  “你现在不懂我也没关系”-----写这篇文章时，听朋友分享过一个故事。\\n\\n一个女生，把男...  \n",
       "12  跟我走吧。-----我们一直尝试着让故事稍微有意思点。这次的形式，其实我们也知道会有一部分的...  \n",
       "13  喜欢，但不合适。-----听过很多话，总觉得喜欢，应该是一股比较强大的力量。\\n\\n \\n\\...  \n",
       "14  累了的话，可以靠在我身上。-----记得有一次陪男朋友去演讲，我们一起坐动车前往别的城市。\\...  \n",
       "15  我开始试着给糟糕的生活，留点「快乐基金」。-----后来我去问了身边一些朋友，到底存多少钱才...  \n",
       "16  “如果不是4万/平的房价，我早就求婚了。”-----有个朋友谈了好几年恋爱，女生一直等男生一...  \n",
       "17  今天，想和你们坐着聊聊天。-----他没有说我，没有还手，只是下意识地抓住我，想我安全地通过...  \n",
       "18  “你当我还是小孩子啊？”“是啊。”-----前些天看一好朋友发了条朋友圈：\\n\\n“好想做个...  \n",
       "19  “不想你太累。”-----人总是想给重要的人更好的生活。\\n\\n \\n\\n为此付出了不少的努...  \n",
       "20  “你不说我都忘了。”“真好。”-----以前我不太喜欢拍照，加上记性差，很多旧事常常被我忘记...  \n",
       "21  520那天，我买了项服务。-----最后一幕里，男主明明已经表达了自己对这个活动的不满，但沟...  \n",
       "22  我害怕的不是结婚这件事。-----昨晚刚看了最新一期的《非正式会谈》，\\n\\n来自印度的天乐...  \n",
       "23  “还是想做个温柔的人。”-----想聊的其实不是校园暴力也不是网络暴力。\\n\\n \\n\\n而...  \n",
       "24  “努力！奋斗！”-----刚毕业时会发现，生活其实有蛮多种选择的。\\n\\n \\n\\n但往往这...  \n",
       "25  “等你。”-----已经想不起来，我妈是从什么时候开始，不再发那么长的语音。\\n\\n \\n\\...  \n",
       "26  “离开时要做的三件事。”-----见过很多分开时，各式各样的遗憾。\\n\\n \\n\\n有些人满...  \n",
       "27  “很多事，突然就变了。”-----朋友告诉我，办公室门口的树叫黄花铃木。\\n\\n \\n\\n和...  \n",
       "28  “我可能不会为你留下。”-----其实mv的故事，不完全是悲剧。\\n\\n \\n\\n在最后，车...  \n",
       "29  “拜拜。”-----看过一个段子：\\n\\n \\n\\n“你还想他吗？”\\n\\n“不想，我放下了...  \n",
       "30  “又不是第一次失恋了。”-----这是一首带有雨声的歌，3月份初，我每晚靠着它入眠。\\n\\n...  \n",
       "31  “别气啦。”-----第一次看到这个故事时，我说两个老人的故事不错。\\n\\n \\n\\n编剧点...  \n",
       "32  “累了。”-----以前常常会焦虑。\\n\\n\\n\\n这种焦虑源自于，自己想要的，和现实有巨大...  \n",
       "33  “我在。”-----成年人的难处总是千奇百怪的。\\n\\n \\n\\n于是理解的人少，于是不爱说...  \n",
       "34  你不喜欢我也OK。-----这次的结尾我写了很久。\\n\\n\\n\\n我前面都写得很顺，写到”生...  \n",
       "35  “我很开朗，装的。”-----问过一些朋友，对内向的人有什么形容词。\\n\\n\\n\\n人们给出...  \n",
       "36  既然要走，就别回头了。-----其实在我心里，这个故事还有最后的一小段。\\n\\n\\n\\n17...  \n",
       "37  待在你身边，就很安心。-----谈过恋爱之后，我一直有个感受，就是不想当女朋友了，想当男朋友...  \n",
       "38  夏天要来了，你还离开吗？-----那个偷偷写信的，仰望着于默的陈欢，可能也想过她这样的小透明...  \n",
       "39  “想和你一起老去。”-----感情这件事，似乎是挺难想明白的。\\n\\n \\n\\n所以常常在还...  \n",
       "40  睡不着的时候，我想见到你。-----故事里有两段话。\\n\\n \\n\\n“因为我喜欢你，所以只...  \n",
       "41  “其实我过得很开心。”-----常常有各种原因，阻碍我们过上理想的生活。\\n\\n \\n\\n可...  \n",
       "42  很喜欢的人，也可以真心说再见。-----第一次听《不能说的秘密》，没有特别喜欢。\\n\\n\\n...  \n",
       "43  “你忙完，要记得找我。”-----后来朋友问我：“你怪过他吗？”\\n\\n \\n\\n我想了想，...  \n",
       "44  “我才不会喜欢你。”-----我突然想到另外一个事情。\\n\\n\\n\\n培养一个习惯要多久呢？...  \n",
       "45  “今年的你，还好吗”-----下面这个长长的故事，来自我们团队另一个号《拥抱要深》（点击可直...  \n",
       "46  “我早就知道会失去你。”-----见过很多朋友，即便努力挣扎过很多次，最后也只落得一个让人心...  \n",
       "47  “想喜欢，但怕了。”-----我听过很多等式。\\n\\n\\n\\n太喜欢=容易受伤=容易被追到=...  \n",
       "48  其实，我是真的在乎你-----亲密关系里，多数的不愉快都和“关心”有关。\\n\\n \\n\\n譬...  \n",
       "49  “喜欢你的日子，都结束了。”-----我有时会想一个问题——在路上偶遇喜欢过的人时，会有些不...  \n",
       "50  五年级的表弟教我谈恋爱。-----\\n在上一篇推送《“我想…” “好”》里，有读者留言说：“...  "
      ]
     },
     "execution_count": 94,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "分隔符号 = \"-----\"\n",
    "df['doc'] = [分隔符号.join([df.title[i] , df.content_raw[i] ] )   for i in df.index] \n",
    "df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 重要字典生成\n",
    "详见[FE_文本字词_RF_随机森林_重要性](FE_文本字词_RF_随机森林_重要性.ipynb)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 95,
   "metadata": {},
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "Wall time: 11.7 ms\n",
      "Wall time: 0 ns\n",
      "Wall time: 165 ms\n"
     ]
    },
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th>feature</th>\n",
       "      <th>feature</th>\n",
       "      <th>importance</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>rank_importance</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>当然</td>\n",
       "      <td>0.092246</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>最后</td>\n",
       "      <td>0.089120</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>我想</td>\n",
       "      <td>0.086391</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>现实</td>\n",
       "      <td>0.071908</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>你说</td>\n",
       "      <td>0.065486</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>是啊</td>\n",
       "      <td>0.064364</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>说到底</td>\n",
       "      <td>0.061771</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>感情这件事</td>\n",
       "      <td>0.059364</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>不过</td>\n",
       "      <td>0.059315</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>心想</td>\n",
       "      <td>0.056492</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>但有意思的是</td>\n",
       "      <td>0.052010</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>之类的等等</td>\n",
       "      <td>0.050721</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>因为</td>\n",
       "      <td>0.050413</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>努力</td>\n",
       "      <td>0.049695</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>房子</td>\n",
       "      <td>0.049084</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>仔细想想</td>\n",
       "      <td>0.041619</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "feature         feature  importance\n",
       "rank_importance                    \n",
       "1                    当然    0.092246\n",
       "2                    最后    0.089120\n",
       "3                    我想    0.086391\n",
       "4                    现实    0.071908\n",
       "5                    你说    0.065486\n",
       "6                    是啊    0.064364\n",
       "7                   说到底    0.061771\n",
       "8                 感情这件事    0.059364\n",
       "9                    不过    0.059315\n",
       "10                   心想    0.056492\n",
       "11               但有意思的是    0.052010\n",
       "12                之类的等等    0.050721\n",
       "13                   因为    0.050413\n",
       "14                   努力    0.049695\n",
       "15                   房子    0.049084\n",
       "16                 仔细想想    0.041619"
      ]
     },
     "execution_count": 95,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from collections import OrderedDict, defaultdict\n",
    "import feature_extraction as FE\n",
    "\n",
    "corpus = df.doc.to_dict(into=OrderedDict) \n",
    "\n",
    "# 文本矢量化: 特徵值提取\n",
    "%time M = FE.doc_vectorizer (corpus, max_df=0.7, min_df=0.03, max_features=50000 ) # 特徵值门槛   \n",
    "\n",
    "# 文本-字词矩阵：降维结果前\n",
    "%time dfm = FE.gen_df_doc_term_matrix_from_model(M, kind=\"corpus_index\")           # dfm的大小長寬是?\n",
    "\n",
    "# 降维 2d -> 1d\n",
    "%time df_importance = FE.gen_df_importance_using_RandomForest(dfm, max_depth=100)  # max_depth愈浅愈..?\n",
    "\n",
    "df_importance"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 96,
   "metadata": {},
   "outputs": [],
   "source": [
    "def columns_add(df):\n",
    "    df['类别'] = \"\"\n",
    "    df['修正'] = \"\"\n",
    "    df['memo'] = \"\"\n",
    "    return(df)\n",
    "df_importance = columns_add(df_importance)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 97,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th>feature</th>\n",
       "      <th>feature</th>\n",
       "      <th>importance</th>\n",
       "      <th>类别</th>\n",
       "      <th>修正</th>\n",
       "      <th>memo</th>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>rank_importance</th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "      <th></th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>当然</td>\n",
       "      <td>0.092246</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>最后</td>\n",
       "      <td>0.089120</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>我想</td>\n",
       "      <td>0.086391</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>现实</td>\n",
       "      <td>0.071908</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>你说</td>\n",
       "      <td>0.065486</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>是啊</td>\n",
       "      <td>0.064364</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>说到底</td>\n",
       "      <td>0.061771</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>感情这件事</td>\n",
       "      <td>0.059364</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>不过</td>\n",
       "      <td>0.059315</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10</th>\n",
       "      <td>心想</td>\n",
       "      <td>0.056492</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11</th>\n",
       "      <td>但有意思的是</td>\n",
       "      <td>0.052010</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12</th>\n",
       "      <td>之类的等等</td>\n",
       "      <td>0.050721</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13</th>\n",
       "      <td>因为</td>\n",
       "      <td>0.050413</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14</th>\n",
       "      <td>努力</td>\n",
       "      <td>0.049695</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>15</th>\n",
       "      <td>房子</td>\n",
       "      <td>0.049084</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>16</th>\n",
       "      <td>仔细想想</td>\n",
       "      <td>0.041619</td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "      <td></td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "feature         feature  importance 类别 修正 memo\n",
       "rank_importance                               \n",
       "1                    当然    0.092246           \n",
       "2                    最后    0.089120           \n",
       "3                    我想    0.086391           \n",
       "4                    现实    0.071908           \n",
       "5                    你说    0.065486           \n",
       "6                    是啊    0.064364           \n",
       "7                   说到底    0.061771           \n",
       "8                 感情这件事    0.059364           \n",
       "9                    不过    0.059315           \n",
       "10                   心想    0.056492           \n",
       "11               但有意思的是    0.052010           \n",
       "12                之类的等等    0.050721           \n",
       "13                   因为    0.050413           \n",
       "14                   努力    0.049695           \n",
       "15                   房子    0.049084           \n",
       "16                 仔细想想    0.041619           "
      ]
     },
     "execution_count": 97,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df_importance"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 重要性字典导出"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 98,
   "metadata": {},
   "outputs": [],
   "source": [
    "import xls_io as xls\n",
    "xls.check_and_write_xls (fn[\"output\"], {\"feature\": df_importance}, get_time=False)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.7.3"
  },
  "toc": {
   "base_numbering": 1,
   "nav_menu": {},
   "number_sections": true,
   "sideBar": true,
   "skip_h1_title": false,
   "title_cell": "Table of Contents",
   "title_sidebar": "Contents",
   "toc_cell": false,
   "toc_position": {},
   "toc_section_display": true,
   "toc_window_display": false
  }
 },
 "nbformat": 4,
 "nbformat_minor": 4
}
